Il presente documento è scritto in R Markdown. Markdown è una semplice sintassi di formattazione per la creazione di documenti HTML, PDF e MS Word. Questo documento è stato compilato usando Rstudio, il più diffuso IDE per R. Per maggiori dettagli sull’utilizzo di R Markdown, vedere http://rmarkdown.rstudio.com.
I dataset utilizzati provengono dalle banche dati Inps ed Istat, (open data e dataset pubblicati)
Per la scelta dei dati ho preso spunto da un report trovato sul sito Aiccon e dall’esperienza fatta personalmente nei centri di accoglienza per migranti.
I dati utilizzati non sono collegati allo studio Aiccon ma hanno lo scopo di mostrare alcune possibilità di ricerca, visualizzazione ed analisi di alcuni tipi di dati.
Il testo che accompagna quanto presentato non costituisce un report divulgativo e presumein alcuni casi,da parte di chi legge, una conoscenza più approfondita degli argomenti presentati.
I dataset utilizzati presentano dati già aggregati, sommari dei dati originali.
Il primo dataset preso in esame proviene dall’Inps e contiene i dati sui Lavoratori in Italia per Territorio (Provincia e regione), classe di età, sesso, posizione lavorativa e cittadinanza
## Questi i valori unici per Posizione lavorativa presenti nel dataset
## [1] "Artigiano" "Autonomo agricolo"
## [3] "Commerciante" "Dipendente privato"
## [5] "Domestico" "Operaio agricolo"
## [7] "Parasubordinato" "Voucher/Lavoro occasionale"
## [9] "Dipendente pubblico"
Viene inizialmente presentata una descrizione dei dati presenti nel dataset utilizzato.
| Name | ID_5651dt |
| Number of rows | 215339 |
| Number of columns | 15 |
| Key | NULL |
| _______________________ | |
| Column type frequency: | |
| character | 8 |
| numeric | 7 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| Regione | 0 | 1 | 5 | 28 | 0 | 21 | 0 |
| Provincia | 0 | 1 | 4 | 20 | 0 | 104 | 0 |
| Cittadinanza | 0 | 1 | 10 | 15 | 0 | 2 | 0 |
| Classe età | 0 | 1 | 7 | 11 | 0 | 11 | 0 |
| sesso | 0 | 1 | 6 | 7 | 0 | 2 | 0 |
| Posizione Prevalente | 0 | 1 | 9 | 26 | 0 | 9 | 0 |
| Posizione | 0 | 1 | 9 | 26 | 0 | 9 | 0 |
| AgeCut | 0 | 1 | 7 | 11 | 0 | 11 | 0 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| Anno | 0 | 1 | 2016.49 | 1.70 | 2014 | 2015.0 | 2016 | 2018 | 2019 | ▇▅▅▃▃ |
| Lavoratori | 0 | 1 | 701.36 | 3044.94 | 1 | 12.0 | 85 | 393 | 114124 | ▇▁▁▁▁ |
| rr_cumulo_Sum | 0 | 1 | 15579198.86 | 93153397.03 | 0 | 77649.5 | 704278 | 5272842 | 5573101806 | ▇▁▁▁▁ |
| ss_cum_total_Sum | 0 | 1 | 29955.75 | 136415.71 | 1 | 332.0 | 2638 | 15118 | 5517162 | ▇▁▁▁▁ |
| TotLavAnno | 0 | 1 | 25170808.52 | 250835.02 | 24694911 | 25067224.0 | 25201022 | 25390499 | 25473153 | ▃▁▃▇▇ |
| TotLavAnnoPos | 0 | 1 | 2994639.52 | 4494105.61 | 40027 | 811850.0 | 974673 | 2088965 | 15400396 | ▇▁▁▁▁ |
| TotLavProvPos | 0 | 1 | 177178.26 | 520102.68 | 1225 | 23184.0 | 52038 | 127669 | 9375117 | ▇▁▁▁▁ |
La successiva è una tabella ricavata dal dataset, dove sono state calcolate le percentuali rispetto alla cittadinanza con più variabili categoriche in cui dividere i dati. La tabella può essere ordinata e filtrata per ogni colonna.
La tabella seguente è un ulteriore sommario dal dataset e riporta il numero totale di lavoratori calcolato per posizione lavorativa e cittadinanza, vengono riportae anche alcune statistiche di base sulla distribuzione dei dati di riferimento.
I singoli data point di riferimento sono gli aggregati per provincia, anno, sesso, classe di età, posizione lavorativa e cittadinanza.
Un tipo di visualizzazione della distribuzione di questi dati può essere un boxplot.
In questo caso sono visualizzate le distribuzioni dei lavoratori per posizione lavorativa e cittadinanza, suddivisi per genere per ogni gruppo di riferimento.
Vista la differenza notevole che può esserci nel numero di lavoratori, fra province con grandi città e territori scarsamente popolati, i dati sull’asse delle x sono stati trasformati in logaritmi a base 10 per consentire una visualizzazione più agevole.
Nel dataset sono riportati i dati aggregati per territorio, una modalità di visualizzazione che può rendere evidenti le differenze consentendo di sovrapporre più variabili può essere una treemap
Dal grafico è immediatamente visibile la differenza fra le percentuali di lavoartori Extracomunitari per tipo di occupazione tra le regioni
Il grafico successivo mostra, attraverso la mappa d’italia divisa per provincie, la percentuale di lavoratori Extracomunitari sul totale dei lavoratori per gli anni dal 2014 al 2019. Questo tipo di visualizzazione rende immediatamente evidente la variazione del dato negli anni
Il secondo dataset è stato creato unendo i dati sui tassi di occupazione, attività e disoccupazione, suddivisi per sesso, cittadinanza e titolo di studio.
I tre dataset originari sono stati scaricati dalle banche dati Istat, i dati provengono da rilevazioni trimestrali dal 2016 al 2020 e sono riferiti a tutto il territorio nazionale.
In questa sezione viene fatto un esempio di analisi di una relazione lineare semplice fra due variabili continue, il tasso di attività ed il tasso di occupazione.
Il primo grafico mette a confronto il tasso di occupazione e quello di attività suddivisi per sesso e cittadinanza.
Il grafico utilizzato è un grafico a dispersione dove vengono proiettati sui rispettivi assi cartesiani i valori delle due variabili per lo stesso gruppo di riferimento. Nel grafico è stata riportata,per ogni gruppo di dati, la retta di regressione lineare dove è minima la somma dei quadrati delle distanze dei singoli punti dalla media
## si possono notare i dati raggruppati in piccoli cluster, la forma dei punti sul grafico distingue i diversi titoli di studio che, soprattutto per gli italiani, corrispondono grossolanamente ai cluster visibili
## la prima indicazione che possiamo trarne è che per entrambi i gruppi il titolo di studio sembra una variabile che determina una differenza rispette alle altre due
## la seconda indicazione è che la retta di regressione lineare degli italiani è più in alto rispetto a quella degli starnieri, sia nei maschi che nelle femmine, segnalando che, apparentemente, a parità di tasso di attività fra i campioni di riferimento, gli italiani in cerca di lavoro risultano occupati in misura maggiore rispetto agli stranieri
Si può provare a verificare questa assunzione visualizzando la distribuzione del rapporto fra tasso di occupazione (occupati/tot popolazione) e tasso di attività (forza lavoro/tot popalazione). La nuova variabile esprime il rapporto fra occupati e forza lavoro, ovvero la frazione di quanti, fra chi cerca attivamente lavoro, risultano poi di fatto occupati.
Per visualizzare la differenza dei valori di questo rapporto si può utilizzare la funzione di densità della distribuzione dei valori, per le diverse combinazioni di categorie, in questo caso per titolo di studio, cittadinanza e sesso
Il grafico sembra confermare la prima impressione e nello stesso tempo mostra delle importanti differenze per titolo di studio. La probabilità di avere il rapporto più alto fra occupazione e attività sembra essere fortemente a vantaggio degli italiani per chi possiede un titolo di studio più elevato mentre per i titoli più bassi o nessun titolo la situazione è invertita. Per verificare se la differenza fra i valori medi delle distribuzioni è statisticamente significativa verrà eseguito il test t di Student, per ogni titolo di studio, mettendo a confronto italiani e stranieri.
## [1] "licenza di scuola elementare, nessun titolo di studio"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = -6.5697, df = 68.621, p-value = 8.101e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.06620229 -0.03535930
## sample estimates:
## mean of x mean of y
## 0.7768056 0.8275864
##
## [1] "licenza di scuola media"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 0.61011, df = 75.813, p-value = 0.5436
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.008672599 0.016331890
## sample estimates:
## mean of x mean of y
## 0.8520506 0.8482210
##
## [1] "diploma"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 7.9855, df = 65.485, p-value = 2.954e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.03121369 0.05202940
## sample estimates:
## mean of x mean of y
## 0.9012849 0.8596634
##
## [1] "laurea e post-laurea"
##
## Welch Two Sample t-test
##
## data: EmpActRatio[CITTADINANZA == "ITL"] and EmpActRatio[CITTADINANZA == "FRG"]
## t = 8.389, df = 46.604, p-value = 7.185e-11
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.04012501 0.06544758
## sample estimates:
## mean of x mean of y
## 0.9427899 0.8900036
Il test conferma, con dei pvalue molto ben al di sotto della soglia convenzionale del 5%, che in 3 gruppi su 4 la differenza fra le medie delle distribuzioni sembra significativa.
Proviamo infine a visualizzare il tasso di disoccupazione nel tempo rispetto alle due popolazioni considerate finora, sempre per titolo di studio, L’aspettativa è che venga confermato quanto rilevato con l’analisi precedente. Il grafico è esplorabile in maniera interattiva
Infine allego due immagini tratti da lavori fatti come esempio sulle possibilità di utilizzo delle reti per l’analisi e la visualizzazione delle relazioni fra i dati
la prima mostra la relazione fra gli Item di un questionario, le zone evidenziate raffigurano le comunità indivduate con lo stesso algoritmo
La seconda immagine mette in relazione le parole ricorrenti in report istopatologici e come sono collegate fra loro, il peso delle relazioni è dato dal numero dei report in cui ricorrono i termini collegati e la direzione l’ordine nella frase
network VCG Liver